Optimisation convexe : de la vraisemblance statistique aux programmes convexes

L'inférence statistique demande : « Étant donné ces données, quelles sont les valeurs les plus probables des paramètres sous-jacents ? » Cette diapositive relie cette question à l'optimisation convexe. Nous transformons la notion probabiliste de vraisemblance en un programme structuré, en montrant que, sous des conditions de log-concavité, trouver la meilleure estimation équivaut à résoudre un problème d'optimisation convexe.

Le cadre de la vraisemblance

La fonction de vraisemblance est la distribution de probabilité $p_x(y)$ considérée comme une fonction du paramètre $x$ pour un échantillon observé fixe $y$. Pour estimer $x$, nous utilisons l'estimation du maximum de vraisemblance (MV): en choisissant la valeur qui rend les données observées les plus probables.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Pour des raisons de performance computationnelle, nous utilisons la fonction de log-vraisemblance, $l(x) = \log p_x(y)$. Comme le logarithme est une fonction strictement croissante, il préserve la position du maximum tout en transformant les produits (issus d'observations indépendantes) en sommes faciles à manipuler.

Le programme d'optimisation MV (7.1)

Nous formalisons l'estimation comme un programme mathématique :

$$\begin{array}{ll} \text{maximiser} & l(x) = \log p_x(y) \\ \text{sous contrainte} & x \in C \end{array}$$ (7.1)

Ce programme est un problème d'optimisation convexe si :

La fonction de log-vraisemblance $l$ est concave pour chaque valeur de $y$.
L'ensemble admissible $C$ (informations a priori) est décrit par des contraintes d'égalité linéaires et d'inégalités convexes.

Intégration des contraintes et des informations a priori

L'estimation MV nécessite de redéfinir $p_x(y)$ comme nulle pour $x \notin C$ afin d'imposer explicitement des contraintes physiques ou a priori. Dans l'espace d'optimisation, cela signifie que la fonction de log-vraisemblance est assignée à la valeur $-\infty$ pour les paramètres $x$ qui violent ces contraintes, créant ainsi une barrière infranchissable pour l'optimiseur.

🎯 Principe fondamental

La transition de « Maximum de Vraisemblance » à « Programme Convexe » repose sur la concavité de la densité logarithmique. Si le bruit ou la distribution est log-concave, l'estimation statistique devient une tâche d'optimisation globalement résoluble.

QUESTION 1

Pourquoi la fonction de log-vraisemblance $l(x)$ est-elle préférée à la fonction de vraisemblance $p_x(y)$ pour l'optimisation ?

Elle déplace la position du maximum vers un point plus stable.

C'est une fonction strictement croissante qui transforme les produits en sommes.

Elle garantit que le problème est toujours linéaire.

Elle supprime le besoin de contraintes.

QUESTION 2

Dans quelles conditions le problème MV (7.1) est-il considéré comme un problème d'optimisation convexe ?

Lorsque $p_x(y)$ est une fonction linéaire de $x$.

Lorsque $l(x)$ est convexe et que $C$ est tout ensemble.

Lorsque $l(x)$ est concave et que $C$ est défini par des égalités linéaires et des inégalités convexes.

Uniquement lorsque le bruit est gaussien.

QUESTION 3

Si un paramètre $x$ viole une contrainte a priori ($x \notin C$), quelle valeur est attribuée à la log-vraisemblance ?

$+\infty$

$-\infty$

QUESTION 4

Vrai ou Faux : L'EMV pour une densité log-concave avec des contraintes convexes a toujours un maximum global unique s'il existe.

Vrai

Faux

QUESTION 5

Considérez une distribution exponentielle de paramètre $\lambda$. Si nous savons que $\lambda \ge 5$ mais que les données suggèrent $\lambda = 2$, où se situera l'EMV contraint ?

À $\lambda = 2$

À $\lambda = 5$

Le problème n'a pas de solution.

À $\lambda = 0$